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第 1 章 绪论 

随 着 计算 机 的 发 展 ， 新 的 发 展 机 遇 层 出 不 穷 的 同时 ， 千 奇 百 怪 的 网 络 攻击 也 给 
互联 网 的 发 展 带 来 消极 的 影响 。Dog 攻击 、 网 络 钓鱼 攻击 、 特 洛 伊 木马、 僵尸 网 络 
等 网 络 攻击 手段 的 整体 数量 保持 持续 上 涨 。 面 对 日 益 复 杂 且 多 样 的 网 络 攻击 ， 光 靠 
防火 墙 、 杀 毒 软件 等 静态 防御 手段 是 不 够 的 。 

入 侵 检 测 系统 (Intrusion Detection System, IDS) 可 以 通过 数据 来 源 和 检测 技术 划 
分 。 如 图 1-1 所 示 ， 早 期 的 IDS 大 多 都 是 用 基于 误 用 的 技术 来 检测 网 络 攻 击 ， 但 因 
为 基于 误 用 的 入 侵 检 测 系统 非常 依赖 已 有 的 签名 知识 库 ， 对 于 未 知 攻击 的 识别 较 差 。 


基于 主机 的 入 侵 检 测 
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基于 误 用 的 入 侵 检测 


K 近 Sh KNN 


[决策 厅 DT | 
列 列 万 法 | 一 类 开 办 DT 
支持 问好 机 SYM 
泌 苍 回归 模型 LG 


传统 机 器 学 


基 十 检测 技术 |_ 风 辑 
划分 k-means 
“| [9 | 
无 监督 方法 1 : 


[下 成分 分 而 活 PCA 


基于 异常 的 入 侵 俭 测 
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图 1-1 入 侵 检测 系统 分 类 
凭借 着 深度 学 习 的 支持 ， 网 络 入 侵 检 测 的 准确 率 和 效率 得 到 提高 。 为 了 进一步 
减少 误 报 率 ， 深 度 学 习 网 络 模型 需要 在 训练 中 不 断 改进 参数 ， 在 预测 时 防止 过 拟 合 ， 
这 代表 着 我 们 在 训练 网 络 模型 时 的 参数 量 以 及 结构 复杂 程度 要 远 超 从 前 。 这 种 情况 
在 一 定 程 度 对 我 们 选择 的 算法 和 模型 有 着 更 高 的 要 求 。 因 此 ， 在 保证 预测 精度 的 基 
础 上 ， 如 何 简化 网 络 结构 ， 提 高 运算 效率 ， 减 少 计算 量 和 功 耗 成 为 了 工程 落地 需 解 
决 的 问题 。 


第 2 章 相关 理论 基础 


2.1 入 侵 检 测 


入 侵 检测 (IDS) 不 同 于 防火 墙 ， 是 一 种 可 以 主动 监测 整个 网 络 ， 实 时 监测 网 络 
中 的 入 侵 行为 。 如 果 将 防火 墙 比 作 商 场 大 门 的 锁 ， 那 么 入 侵 检测 就 是 商场 的 监控 系 
统 。 门 前 大 锁 可 以 使 部 分 小 偷 无 法 进入 商场 ， 而 监控 系统 则 可 以 发 现 情况 并 发 出 警 
告 。 入 侵 检测 作为 防火 墙 的 重要 补充 成 为 构建 网 络 安全 防御 体系 的 重要 环节 ， 起 到 
了 克服 传统 防御 机 制 的 限制 。 入 侵 检测 在 网 络 中 的 位 置 通常 是 交换 机 和 集线器 之 间 。 
入 侵 检测 的 工作 流程 如 图 2-1。 第 一 步 是 主机 进行 信息 收集 ， 收 集 的 主要 内 容 是 当前 
系统 或 用 户 的 相关 行为 ， 如 : 系统 日 志 、 应 用 日 志 、 网 络 数据 、 审 计 记 录 等 信息 。 
其 次 是 入 侵 分 析 ， 将 所 收集 的 数据 与 数据 库 中 的 知识 库 进 行 对 比分 析 。 知 识 库 来 自 
于 网 络 的 历史 行为 或 下 载 的 流量 特征 。 分 析 的 方法 分 为 异常 检测 和 误 用 检测 。 通 过 
训练 好 的 检测 模型 ， 对 上 一 步 获取 的 相关 信息 进行 判断 。 如 果 信 息 与 模型 中 已 知 的 
常 行为 不 匹配 ， 则 判断 为 攻击 行为 。 数 据 分 析 是 入 侵 检测 中 最 核心 的 部 分 。 最 后 
是 告警 啊 应 ， 当 系统 将 某 一 行为 判断 为 攻击 ， 先 将 此 行为 的 信息 保存 在 数据 库 中 ， 


后 将 采取 向 系统 发 出 警告 或 人 工 干 预 来 应 对 攻击 。 


当前 系统 /用 户 行为 


知识 库 


历史 行为 


分 析 引 擎 


误 用 检测 


图 2-1 入 侵 检测 工作 流程 


2. 2 基于 深度 学 习 的 网 络 入 侵 检测 算法 


传统 网 络 入 侵 检测 具有 精确 度 差 ， 效 率 低 ， 时 间 长 ， 误 报 率 高 等 问题 ， 对 于 大 
型 数据 集 的 检测 结果 较 差 。 而 基于 深度 学 习 的 网 络 入 侵 检测 算法 的 出 现 ， 很 好 的 改 
善 了 这 些 问题 。 

深度 学 习 是 一 种 训练 深层 神经 网 络 的 机 器 学 习 算法 ， 其 本 质 是 通过 构建 多 层 网 
络 的 模型 并 且 期 待 多 层 的 高 层次 特征 来 表示 数据 的 抽象 语义 信息 以 及 通过 大 量 的 训 
练 数据 来 进行 特征 学 习 ， 从 而 最 终 提 高 分 类 或 预测 的 准确 性 。 深 度 学 习 和 传统 的 机 
器 学 习 在 数据 的 预 处 理 方面 比较 相似 ， 都 对 数据 进行 清洗 、 归 一 化 、 去 品 、 降 维 等 
操作 。 但 传统 机 器 学 习 相 比 于 深度 学 习 ， 其 对 数据 的 特征 提取 主要 依赖 人 工 提取 ， 
面 对 简 单 任务 时 效率 高 且 可 解释 性 强 ， 但 不 通用 。 而 深度 学 习 是 机 器 提取 特征 ， 分 
类 表现 相对 较 好 但 可 解释 性 差 。 
2. 2. 1 K- 最 近邻 算法 

KNN 算法 全 称 是 K- 最 近邻 算法 (K-NearestNeighbor)， 是 基于 实例 的 学 习 ， 是 懒 
惰 学 习 的 代表 。KNN 算法 具有 广泛 的 应 用 场景 ， 在 垃圾 邮件 识别 、 图 像 内 容 识 别 、 
文本 分 析 都 有 大 量 的 应 用 。 算 法 的 核心 思想 非 ， 即 给 定 一 个 训练 数据 集 ， 将 输入 的 
数据 在 训练 数据 集中 找到 与 该 数据 最 邻近 的 K 个 实例 。 根 据 K 个 实例 中 的 多 数 类 来 
对 新 实例 进行 分 类 。 通 过 取 它 们 的 加 权 平 均值 来 解决 回归 问题 。 如 图 2-2 所 示 。 


口 全 class1 
A 国 class2 


2-2 KNN 算法 分 类 


画 圈 的 大 小 表示 k 的 大 小 。 圆 圈 里 哪个 类 别 的 数量 最 多 ， 那 么 预测 值 就 是 哪个 
类 别 。 当 k=1 时 ， 分 类 到 红色 方块 ， 当 k=5 时 ， 由 于 圈 中 灰色 三 角形 较 多 ， 故 分 类 
到 灰色 三 角形 。 我 们 总 结 发 现 最 终 的 预测 值 与 两 个 因素 有 关 : k 值 的 大 小 和 距离 判断 
的 方法 。 


常用 的 欧式 距离 : 

是 我 们 学 习 最 直观 的 两 点 之 间或 多 点 之 间 的 距离 表示 法 ， 如 图 2-3 所 示 ， 它 
可 以 简单 理解 为 两 个 点 之 间 连 线 的 长 度 。 如 AGxlLyD 和 B(x2,y2) 之 间 的 欧式 距离 
为 : 


d(A,B)= 
2 
(x 1—-x 2)-(y 1-y 2) (2-1) 


Euclidean 


2-3 欧 氏 距离 


2. 2. 2 BP 神经 网 络 

BP(Back-propagation， 反 问 传 播 ) 神 经 网 络 是 最 传统 最 简单 的 神经 网 络 ， 因 为 其 
参数 训练 思想 使 其 成 为 应 用 最 广泛 的 神经 网 络 。 所 谓 误 差 反 辐 传 播 ， 就 是 对 损失 函 
数 和 权重 值 利 用 链 式 法 则 求 导 (每 个 权 值 参数 都 可 以 看 做 是 损失 函数 的 参数 ) 。 
为 梯度 的 反方 向 就 是 函数 值 下 降 最 快 的 方向 ， 我 们 可 以 利用 梯度 下 降 来 优化 损失 函 
数 。 通 过 以 上 两 点 对 权重 值 进 行 更 新 直至 误差 函数 最 小 ， 模 型 训练 结束 。 

以 下 图 2-9 所 示 ， 在 一 个 有 两 个 输入 和 一 个 输出 的 三 层 神经 网 络 中 ， 每 个 神经 元 
都 是 执行 两 次 操作 ， 首 先 将 权重 系数 与 输入 信号 进行 乘积 ， 其 次 将 乘积 放 入 神经 元 
激活 函数 。 


图 2-9 BP 神经 网 络 实例 
为 了 训练 神经 网 络 模型 ， 我 们 需要 准备 训练 集 ， 其 中 包括 输入 信号 (x1,x2) 和 相 
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应 目标 〈 期 望 输出 ) z。 网 络 训练 是 一 个 迭代 过 程 ， 每 个 和 欠 代 中 会 使 用 来 自 训 练 数据 
集 的 新 数据 来 修改 节点 的 权重 系数 。 这 种 修改 是 通过 算法 如 下 图 2-10 所 示 来 完成 的 ， 
每 个 步 又 都 需要 两 个 来 自 训 练 集 的 输入 信和 号。 在 网 络 中 传播 信号 时 ， 我 们 可 以 确定 
每 个 神经 元 在 每 个 网 络 层 中 的 输出 信号 值 ， 其 中 符号 w(xm)n 表示 输入 层 中 网 络 输入 
xm 和 神经 元 n 之 间 的 连接 权重 ， 符 号 yn 表示 神经 元 n 的 输出 信和 号。 


2-10 反 向 传播 


调整 网 络 参数 来 使 网 络 输出 的 结果 尽 可 能 的 靠近 真实 值 的 方式 至 关 重 要 。 这 里 
先 引 入 一 个 概念 一 一 损失 函数 。 所 谓 损 失 (loss)， 就 是 网 络 的 输出 值 you 和 真实 值 y 
之 间 的 误差 |youry|。 而 计算 损失 的 函数 即 为 损失 函数 。 第 用 的 损失 函数 有 均 方 差 函 数 
和 交叉 炳 损失 。 网 络 模型 更 优 就 相当 于 使 损失 阔 数 变 小 ， 使 损失 函数 变 小 的 方法 是 
梯度 下 降 法 。 其 中 梯度 是 将 由 不 同 参 数 下 的 损失 函数 构成 的 曲线 进行 求 导 所 得 来 的 ， 
梯度 越 小 代表 损失 函数 下 降 的 越 快 ， 由 此 得 到 损失 函数 的 最 小 值 。 优 化 网 络 模 型 参 
数 是 通过 调整 每 个 神经 元 输入 的 权重 系数 来 实现 的 ， 我 们 可 以 由 公式 2-10 来 更 新 每 
个 神经 元 的 参数 〈 不 同 输入 的 权重 系数 ) 。 公 式 中 的 df(e)/de 表示 每 个 神经 元 激活 函 
数 的 导数 。 


,~ Afi(e) 


Wx = Wort + 10 de 
, dfi(e) 
Wray = Worar + 10 ds 2 (2-10) 


所 谓 的 训练 网 络 ， 就 是 模型 在 不 断 正 向 传播 和 反 向 传播 ， 不 断 优化 模型 参数 ， 
逼近 模型 最 优 性 能 。 理 论 上 不 断 的 训练 可 以 最 终 达到 最 优 模型 ， 但 实际 上 训练 到 
一 定 程度 时 最 终 的 分 类 效果 反而 会 变 差 ， 这 也 是 近 几 年 研究 的 热点 
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第 3 章 基于 深度 学 习 的 网 络 入侵 检 测算 法 的 训练 集 和 框架 


3.1 网 络 训 练 的 数据 集 


本 次 实验 使 用 的 是 KDD CUP 99 数据 集 。 此 数据 集 是 入 侵 检测 中 最 常用 的 ， 来 
自 于 1998 年 的 美国 国防 部 高 级 规划 署 (DARRA) 入 侵 检测 评估 项 目 ， 后 Wenke Lee 等 
人 对 原始 数据 进行 特征 提取 ， 其 数据 来 自 于 美国 空军 局 域 网 ， 进 行 了 9 周 网 络 流量 
收集 ， 其 中 7 周 流量 为 训练 集 ， 剩 余 两 周 为 测试 集 。 大 约 包含 700 万 流量 。 在 测试 
集中 还 包含 了 一 些 训练 时 不 包含 的 攻击 类 型 ， 用 来 测试 入 侵 检 测 模型 对 未 知 攻击 的 
识别 能 力 。 

训练 集中 将 网 络 流量 分 为 正常 和 异常 ， 在 流量 标签 中 说 明 类 型 。 如 下 图 3-1 所 示 ， 
异常 流量 分 为 了 4 大 类 ，4 大 类 中 总 共有 39 种 攻击 类 型 ， 但 只 有 22 个 攻击 类 型 在 训 
练 集 ， 剩 下 的 17 种 类 型 在 测试 集 。 对 未 知 网 络 攻击 的 识别 能 力 是 评测 网 络 入 侵 检测 
系统 的 重要 指标 。 


标识 类 型 含义 具体 分 类 标识 
Normal | 正常 记录 | normal 
DOS 把 绝 服务 攻击 back .land neptune、pod、smmuf.teardrop 
Probing 监视 和 其 他 探测 活动 ipsweep nmap 、portsweep、 satan 


R2L 来 自 远程 机 器 的 非法 访问 ftp_wnite、 guess_passwd imap .nmltihop.、 
phf、spy~warezclient、warezmaster 


普通 用 户 对 本 地 超 级 用 户 buffer_overflow\loadmodule \perl、 
特权 的 非法 访问 rental 


We 


图 3-1 KDD CUP 99 训练 的 标识 类 型 


KDD CUP 99 数据 集中 的 每 个 流量 记录 包含 了 41 个 固定 的 特征 属性 和 1 个 类 标 
识 ， 其 中 9 个 特征 属性 为 离散 (symbolic) 型 ， 其 它 均 为 连续 (continuous) 型 。 


第 4 章 实验 与 结果 分 析 


本 次 毕业 设计 实验 在 PC 端 个 平台 实现 。 本 章 将 介绍 PC 端 软 硬件 的 配置 ， 并 对 
所 使 用 的 数据 集 KDD CUP 99 的 数据 预 处 理 环节 进行 介绍 。 最 后 对 网 络 入 侵 检 测 系 
统 的 训练 和 预测 结果 进行 展示 与 分 析 。 
4.1 数据 集 预 处 理 


本 次 毕业 设计 使 用 KDD CUP 99 数据 集中 包含 有 符号 型 的 数据 属性 ， 在 神经 网 
络 模型 中 ， 无 法 处 理 非 数 值 型 的 特征 。 为 了 更 好 的 进行 实验 ， 我 们 需要 对 数据 进行 
预 处 理 ， 数 据 集 的 预 处 理 一 般 分 为 三 个 步骤 : 1、 将 数据 集中 字符 型 数据 转换 为 数值 
型 数据 。2、 数 值 标准 化 。3、 的 人 
4.1.1 字符 型 数据 转换 为 数值 型 数据 

在 KDD CUP 99 数据 集 的 41 个 特征 中 有 3 个 符号 型 特征 ， 这 3 个 符号 型 特征 分 
别 是 协议 类 型 特征 (protocol type)、 目 标 网 络 服务 特征 (service)、 连 接 正 篆 与 否 的 状态 
特征 (flag)。 对 于 这 3 个 符号 型 特征 ， 我 们 可 以 使 用 属性 映射 的 方法 将 字符 型 数据 转 
换 为 数值 型 数据 P]。 

协议 类 型 特征 就 是 网 络 流量 的 传输 层 协 议 ， 有 3 种 类 型 TCP( 传 输 控制 协议 
Transmission Control Protocol)、UDP( 用 户 数 据 报 协议 User Datagram Protocol) 、 
ICMP(Internet 控制 报 文 协 议 Internet Control Message Protocol)。 将 其 编码 为 0-2， 用 
二 进 制 编码 为 TCP-00、UDP-01、ICMP-10。 目 标 网 络 服务 特征 有 70 种 ， 如 http、 
ftp、IRC、link、login、mtp 等 等 ， 对 其 编码 0-69。 连 接 正 常 与 否 的 状态 特征 (flag) 有 
11 种 ， 如 OTH、REJ、RSTR 等 等 ， 对 其 编码 0-10。 最 后 将 攻击 类 型 进行 编码 ， 正 
常 流量 为 0，Dos-1、Probe-2、R2L-3、U2R-4。 

4. 2 实验 流程 


本 次 实验 首先 进行 的 是 划分 训练 集 和 测试 集 ， 将 KDD CUP 99 数据 集 的 20% 划 
分 为 测试 集 ， 剩 下 的 为 训练 集 。 后 进行 数据 的 预 处 理 ， 通 过 独 热 编码 将 字符 型 数据 
转换 为 数值 型 数据 ， 再 进行 Z-Score 标准 化 和 Max-Min 归 一 化 。 接 下 来 确定 训练 的 
目标 ， 如 果 是 二 分 类 就 判断 数据 的 标签 ， 若 标签 为 异常 则 置 1。 在 开 等 于 3、5、7、 
9、11、13、15 情况 下 使 用 KNN 算法 并 放 入 训练 集 及 对 应 类 别 。 再 对 测试 集 进行 预 


y 


测 ， 计 算 输 入 点 与 邻近 点 的 欧式 距离 并 进行 排序 ， 取 前 k 个 点 。 最 终 这 几 点 中 的 类 
别 最 多 的 则 是 输入 点 的 类 别 。 将 预测 的 结合 和 标签 进行 对 比 计 算 正 确 率 。 最 后 利用 
函数 生成 不 同 k 值 下 的 正确 率 。 工 作 的 流程 图 如 图 4-1 所 示 : 


痊 出 
| (。 泥 清 短 旗 、 ROC 由 线 和 PR 图 ) 
| 准确 率 、F1- 分 数 | 


图 4-1 基于 KNN 算法 下 入 侵 检 测 的 流程 图 

找到 正确 率 最 高 对 应 的 k 值 ， 后 套用 BP 神经 网 络 、 朴 素 高 斯 贝 叶 斯 和 决策 树 算 
法 对 测试 集 进 行 预测 。 生 成 ROC 曲线 、P_R 曲线 和 混淆 和 矩阵 将 对 比 其 它 模 型 。 
4.3 实验 结果 与 分 析 


本 次 实验 使 用 KNN 算法 进行 训练 以 及 预测 ， 后 将 高 斯 贝 叶 斯 、BP 神经 网 络 和 
决策 树 一 同 进行 并 输出 分 类 结果 进行 对 比 。 对 于 数据 集 KDD CUP 99， 分 别 展示 二 
分 类 (正常 和 异常 ) 和 五 分 类 (正常 和 4 大 类 攻击 ) 下 的 结果 与 分 析 。 由 于 原始 数 
据 集 过 多 旦 本 主机 性 能 不 佳 ， 为 加 快 实验 进 度 ， 将 交叉 验证 法 的 折 数 均 设 为 5， 且 只 
抽取 原始 数据 集 的 20% 约 8w 条 数据 包 作 为 训练 集 和 测试 集 ， 其 中 测试 集 占 20%。 
(1) 二 分 类 

为 防止 数据 不 足 导致 实验 精度 下 降 和 估计 模型 在 实际 数据 应 用 中 的 准确 度 ， 本 
实验 使 用 交叉 验证 法 。 

在 KNN 算法 中 ， 我 将 K 参数 值 选 定 在 3-15 之 间 ， 每 次 增加 2( 共 3、5、7、9、 
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11、13、15 这 几 种 情况 )， 分 


正确 率 


所 有 KK 值 下 的 准 


x 汪 


计算 对 应 值 下 的 平均 准确 率 ， 如 图 4-2 所 示 : 


Bd 


妈 4-2 不 同 k 值 下 的 入 侵 检 测 率 


角 率 都 在 99% 以 上 ， 都 符合 实验 前 的 预期 。 其 中 K=3 时 平均 准 


确 率 最 高 ， 最 终 选择 K=3 作为 二 分 类 下 的 KNN 算法 的 K 值 。 
后 将 KNN 算法 与 其 它 算法 进行 比较 ， 首 先 选 择 决 策 树 算法 ， 将 决策 树 参 数 
max_depth 的 范围 划 定 为 10 到 30， 各 值 下 的 正确 率 如 图 4-3 所 示 : 


图 4-3 10-30max_depth 值 下 的 正确 率 
可 以 看 到 等 于 26 和 30 的 时 候 最 高 ， 这 里 取 值 为 26， 在 此 设 定 下 ， 在 对 测试 范 


围 为 2 到 20 的 进行 正确 率 的 检测 ， 如 图 4-4 所 示 : 


min sa 


mples split 


图 4-4 2-20max _ depth 值 下 的 正确 率 


最 终 min_samples_split 设 定 为 2。 
性 能 评价 : 
首先 先 看 图 4-5 各 模型 下 的 混淆 矩阵 : 


KNN 贝 叶 斯 

normal normal normal normal 3859 17 
雷 埋 雷 二 
全 全 体 休 
炭 者 外 震 

attack attack 1017 attack 168 attack 18 

normal attack normal attack normal attack normal attack 
预测 值 预测 值 


4-5 各 模型 下 的 混淆 矩阵 


4-6 是 各 模型 的 准确 率 、 精 确 率 、 召 回 率 和 了 1-Score 〈 这 里 我 将 结果 都 扩大 了 
100 倍 ) : 


性 能 评价 (TL EC Co ED 


34 84 


4-6 各 模型 下 的 准确 率 、 精 确 率 、 召 回 率 和 F1-Score 
最 后 是 ROC 曲线 和 了 _R 曲线 : 


ROC Curve P_R Curve 
10 1 一 一 一 
本 本 a 
2 Re 
上 上 
上 
四 
昌 
名 
3 
o 
FE rt 
+ 
瑟 9 
名 
6 2 
C3 
os 04 
EB 
廊 
02 
一 om -FA 村 
一 出 =- 
一 生病 -PN 内 
a a n 
[Lh [Lh 
on 和 oe oe on 1o on [9 oe oe 
False Positive Rate precision 


4-7 各 模型 下 的 ROC 曲线 和 P_R 曲线 
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ROC 曲线 中 ， 每 一 个 模型 的 AUC 面积 保留 两 位 小 数 点 后 均 为 1， 四 个 模型 之 间 
的 差距 不 大 ， 正 确 率 等 指标 在 94% 之 上 ， 分 类 结果 均 较 好 。 在 P_R 曲线 中 也 难以 比 
较 各 模型 之 间 的 优 劣 。 但 观察 混 请 和 矩阵， 我 们 发 现 这 几 个 模型 中 KNN 表现 得 最 好 。 
但 这 四 个 模型 都 存在 着 将 正常 数据 包 识别 为 异常 数据 包 的 情况 。 

(2) 五 分 类 

在 五 分 类 的 KNN 算法 下 ， 我 将 K 参数 值 选 定 与 二 分 类 一 致 ， 分 别 计算 对 应 KK 

值 下 的 平均 准确 率 ， 如 图 4-8 所 示 : 
正确 率 他 四 Oo-m | 


正确 率 
3:9978 


图 4-8 不 同 k 值 下 的 入 侵 检 测 率 


由 结果 所 示 ， 五 分 类 下 的 KNN 算法 的 开 值 的 设置 同 二 分 类 下 的 一 致 为 3。 
同样 选 定 决策 树 算法 与 之 比较 ， 决 策 树 max_depth 参数 取 值 范围 10 到 30， 正 确 
率 如 图 4-9: 


max depth 


图 4-9 10-30max depth 值 下 的 正确 率 


在 参数 到 27 的 时 候 ， 正 确 率 基本 就 保持 在 99.84， 因 此 max_depth 设 定 为 27。 
在 此 基础 上 再 对 min_sampls_split 进行 测试 ， 范 围 是 2 到 20， 正 确 率 如 图 4-10: 


min_samples split samples_split 


4-10 2-20max depth 值 下 的 正确 率 
随 着 该 参数 的 增 大 ， 正 确 率 呈 下 降 趋势 ， 因 此 该 参数 最 终 设 定 为 2。 


性 能 评价 
混 消 和 矩阵 的 对 比如 图 4-11: 


吉 
代 probe 
民 R2L 


U2R 
normaldosprobeR2L U2R 
预测 值 


normaldosprobeR2L U2ZR 
预测 值 


BP 神经 网 络 


2 
normal 


0 
0 
0 
0 
0 


normaldosprobeR2L U2R 


dosprobe RZL UZR 
预测 值 


预测 值 


E 阵 


4-11 各 模型 下 的 混 清和 久 


各 模型 的 准确 率 、 精 确 率 、 召 回 率 和 Fl1-Score 比较 如 图 4-12: 


BB KNN BB n+ 国 更 6p 证 二 R 关 OD 


性 能 评价 


3 99.87 986 99.87 
1007 98.65 of 


图 4-12 各 模型 下 的 准确 率 、 焊 


ROC 曲线 和 了 _R 曲线 的 对 比如 图 4-13: 


决策 树 


确 率 、 召 回 率 和 F1-Score 


ROC Curve 


True Positive Rate 


1111 


a 
EE 


图 4-13 各 模型 下 的 ROC 曲线 和 P_R 曲线 


将 分 类 从 二 分 类 改 为 五 分 类 后 ， 各 模型 的 预测 表现 明显 不 同 。 尽 管 四 个 模型 的 
ROC 曲线 存在 交叉 ， 但 贝 叶 斯 的 AUC 面积 最 小 ， 而 KNN 和 决策 树 的 面积 最 大 。 在 
P_R 曲线 中 ，BP 神经 网 络 的 对 角 线 交点 最 低 ， 而 KNN 的 对 角 线 交点 最 高 。 从 总 体 
来 看 ， 贝 叶 斯 在 准确 率 和 混 消 矩阵 中 表现 的 效果 最 差 ，KNN、 神 经 网 络 和 决策 树 的 
正确 率 等 性 能 相似 ， 但 混 涌 矩 阵 可 以 具体 反应 出 他 们 的 差距 。 相 对 而 言 ，KNN 和 决 
策 树 的 分 类 更 具 泛 化 性 。BP 神经 网 络 的 性 能 高 是 因为 数据 集 不 平衡 (DOS 攻击 的 数 
据 包 在 KDD CUP 99 数据 集中 占 比 较 大 ) ， 而 对 其 他 攻击 和 正常 数据 包 的 识别 率 很 
低 。 在 样本 不 平衡 的 影响 下 ， 对 DOS 攻击 的 异常 数据 包 最 多 ， 对 其 提取 的 特征 也 越 
多 ， 而 其 他 攻击 的 数据 包 非 常 少 提取 的 特征 也 少 ， 最 终 导致 训练 阶段 的 收敛 和 测试 
的 泛 化 性 降低 。 样 本 不 平衡 性 对 其 他 的 模型 也 产生 了 影响 ， 但 高 斯 贝 叶 斯 在 少数 类 
判断 上 会 更 为 成 功 一 些 ， 但 整体 效果 更 差 。 综 合 来 看 ，KNN 的 效果 最 好 。 在 二 分 类 
中 ， 所 有 有 异常 数据 包 都 合成 了 一 个 类 别 ， 所 以 样本 不 平衡 性 没有 那么 明显 ， 四 个 模 
型 表现 也 更 好 。 


结论 


随 着 深度 学 习 的 快速 发 展 和 迭代 ， 越 来 越 多 的 网 络 模型 如 雨后春笋 般 出 现 。 为 
了 追求 更 快速 的 分 类 ， 各 个 领域 都 开始 使 用 深度 学 习 框 架 。 而 在 信息 安全 越 来 越 重 
要 的 今天 ， 传 统 的 网 络 入 侵 检测 已 经 无 法 做 到 实时 精准 的 检测 ， 基 于 深度 学 习 的 网 
络 入 侵 检测 应 运 而 生 。 本 次 实验 基于 Sklearn 框架 ， 采 用 KDD CUP 99 数据 集 ， 训 练 
基于 KNN 算法 二 分 类 和 多 五 分 类 的 网 络 模型 ， 生 成 混淆 和 矩阵 、ROC 曲线 和 了 _R 曲 
线 ， 通 过 对 比 朴素 高 斯 贝 叶 斯 、BP 神经 网 络 、 决 策 树 等 算法 和 不 同 k 值 下 KNN 算 
法 的 精确 度 来 ， 比 较 各 算法 的 优 务 和 确定 k 的 值 。 通 过 Pyecharts 包 实 现 数 据 可 视 化 ， 
生成 准确 率 的 图 。 本 次 实验 的 预测 效果 整体 良好 ， 符 合 之 前 预期 ， 相 比 于 网 上 其 它 
算法 有 着 不 小 的 优势 。 
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